La structure thème-rhème pour l'ordonnancement de documents en recherche d'information
نویسندگان
چکیده
RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une représentation par sac de mots. Cependant, les modèles existants ne sont pas capables de capter la distribution entre l’information déjà connue et l’information nouvelle apportée par l’énoncé. L’objectif principal de ce papier est de proposer l’utilisation de la structure thème-rhème pour le ré-ordonnancement de documents en recherche d’information. Nous avons analysé manuellement la structure thème-rhème des documents issus de trois collections: Wikipédia, TREC Robust et WT10G. Grâce à cette analyse, nous avons introduit une méthode complètement automatique pour annoter la structure informationnelle. Elle s’appuie sur l’hypothèse que le thème a tendance à être positionné au début des phrases. La structure thème-rhème est identifiée automatiquement à partir des premiers documents retrouvés qui sont ré-ordonnés selon cette structure intégrée dans le formalisme BM25F . Cette méthode n’exige qu’une analyse syntaxique de surface, à savoir le découpage en phrases et le balisage des parties de discours. L’évaluation sur les collections TREC montre que notre méthode améliore significativement les résultats de recherche d’information par rapport aux systèmes de l’état de l’art.
منابع مشابه
Traitement d'attributs inter-dépendants pour la recherche d'information par treillis
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملCompression de structure XML pour la recherche d'information structurée
RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...
متن کاملApprentissage d'ordonnancements en recherche d'information structurée
RÉSUMÉ. Nous présentons un modèle d’apprentissage pour la Recherche d’Information Structurée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnance...
متن کاملClassification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information
RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’inte...
متن کاملExpansion de requêtes pour la recherche d'information multilingue
1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 20 شماره
صفحات -
تاریخ انتشار 2017